统计计量 | 固定效应+聚类标准误是面板数据标配吗?
The following article is from 功夫计量经济学 Author 江河JH
本文转载自公众号功夫计量经济学
是的,没错,固定效应+聚类稳健的标准误是面板数据的标配。但是,固定效应和聚类稳健标准误是两回事,二者针对的问题是不一样的,固定效应针对的是遗漏变量问题(个体、时间等异质性),而聚类稳健的标准误则针对的是扰动项聚类(集群)相关的问题。
何谓固定效应?
固定效应是扰动项中比较特殊的一部分,是代表个体(时间)异质性的截距项,并且固定效应模型假设这一特殊的截距项与解释变量相关。个体固定效应是不随时间变化但随个体而变的的无法观测的因素(个体异质性),而时间固定效应不随个体而变但随时间而变的无法观测的因素(时间异质性)。固定效应无法观测到,但又是面板数据模型必须考虑的东西,计量经济学家的智慧在这里体现无疑,我们可以使用组内均值法通过离差变换将其消去,然后再使用OLS进行估计。
对于面板数据,我们通常都会使用双向固定效应模型,个体固定效应解决了不随时间而变但随个体而变的遗漏变量问题,时间固定效应解决了不随个体而变但随时间而变的遗漏变量问题。但是,还存在既随个体而变又随时间而变的遗漏变量问题,所以我们常说面板数据只能在一定程度上解决部分内生性问题,想要“一劳永逸”,还是要使用工具变量方法。
具体而言,对于城市面板数据,我们一般都会控制城市固定效应和年份固定效应;对于企业面板数据,我们一般都会控制企业固定效应和年份固定效应,有时还会将企业固定效应放宽为行业固定效应和地区固定效应进行分析。
物以类聚?
众所周知,异方差稳健的标准误解决的是扰动项存在异方差的问题,而聚类稳健的标准误解决的是扰动项存在聚类(集群)相关的问题。
在面板数据中,每个个体不同时期的所有观测值即构成一个聚类(集群)。这样,样本观测值可以分为不同的聚类(集群),比如你使用的是企业面板数据,那么每一个企业就是一个聚类(集群),而聚类(集群)相关指的就是集群内部样本观测点的扰动项存在相关。这一问题是面板数据与生俱来的问题,面板数据相当于是横截面乘以时间序列,所以面板数据既会有横截面数据的问题(异方差),也会有时间序列数据的问题(自相关),同一聚类个体的扰动项天生就有可能自相关。
如果存在聚类(集群)相关的问题,那么就会使得OLS估计量的标准误是有偏的,因而我们需要对标准误进行修正。此外,由于聚类稳健的标准误在推导过程中并没有用到同方差假定,所以聚类稳健标准误都是异方差稳健的。
当我们使用聚类到企业层面的稳健标准误时,我们施加的假设就是——同一企业不同年份的扰动项之间相关,而不同企业的扰动项之间不相关。这一假设部分符合现实情况,因为影响一家企业经营的干扰因素具有连续性,因而扰动项会存在聚类内部的自相关。但是,同一地区不同企业的扰动项可能是相关的,因为身处同一地区,企业难免会受到相同的干扰因素的影响,所以为了说明估计结果的稳健性,我们通常都会尝试聚类到更高层级,比如县级、地级市层级,让审稿人无法质疑金光闪闪的三星结果。
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
推荐 | 青酱
欢迎扫描👇二维码添加关注